[SIGGRAPH 2022] 利用真实数据来提升文档图像矫正性能(有源码)
一、研究背景
文档图像校正在文档数字化以及文档分析中都十分重要。现有的SOTA方案基本都是基于合成数据训练的深度学习方法,导致模型在真实数据上测试时的泛化能力不足,影响矫正性能。因此本文提出在模型训练阶段引入真实数据,以此提升模型的矫正性能。为了用真实数据进行训练,本文提出了DIW(Document-in-the-Wild)数据集,包含5000张带有文档区域Mask标注的真实场景文档图像。本文提出的PaperEdge方法可以基于DIW数据集进行弱监督的训练。此外,考虑到现有的评价指标存在对微小变化过于敏感以及在无纹理区域存在较大误差等问题,本文提出一个更加鲁邦的评价指标AD。
二、方法原理简述
Enet: Edge-based Unwarping。Enet采用全卷积的Encoder-decoder结构,输入为含有形变的文档图像
结合图4示意图所示,自监督训练的设计基于这样一个先验假设:形变不同、内容相同的图像矫正后应该是一致的平整图。因此作者在预测得到
三、主要实验结果及可视化结果
表1 不同模块以及不同训练方式的消融实验
表2 本文方法与现有方法在DocUNet数据集上的定量比较结果,其中
从图5可以看出,AD相比于MS-SSIM更符合视觉直观,对于视觉上细微的差异不会产生大的指标变化;相比LD则可以减轻无纹理区域带来的误差。从图6和表1可以看出Enet和Tnet两个模块的有效性,以及真实数据弱监督以及自监督的带来的提升。从表2和图7可以看出本文方法对比现有方法的优越性。从图8可以看出Tnet可以处理一些不完整的文档图像。
四、总结及讨论
该论文创新性地提出了一种文档图像矫正方法,PaperEdge。可以同时利用合成数据和真实数据进行训练。同时还提出了一个新的评价指标AD,缓解了现有评价指标MS-SSIM和LD存在的问题。此外还提出了DIW数据集,包含真实文档图像以及对应的文档区域Mask标注。PaperEdge同时还能处理非完整的文档图像,相比现有方法更加灵活。
五、相关资源
lLearning From Documents in the Wild to Improve Document Unwarping论文地址:
https://dl.acm.org/doi/abs/10.1145/3528233.3530756lLearning From Documents in the Wild to Improve Document Unwarping 项目地址:
https://github.com/cvlab-stonybrook/PaperEdgelDIW数据集下载地址:
https://drive.google.com/file/d/1qAmLurt6bK0ro8PnRz6rBgVs1rfrsdKi/view?usp=sharing
原文作者: Ke Ma, Sagnik Das, Zhixin Shu, Dimitris Samaras
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾
[IEEE TIP 2022] | 基于EM算法的混合监督场景文本检测
[ACM 2022] 基于判别式和生成式的自监督文本图像识别方法
[TMM 2022] | 基于多层次跨模态模仿学习的跨语言文本图像识别与翻译方法
[ACM MM 2022] SPTS: Single-Point Text Spotting(已开源)
论文推荐|[ACM MM 2022] 基于边缘去除和迭代式内容矫正的复杂文档图像校正
ECCV 2022 Oral | 理解艺术字:用于场景文字识别的角点引导Transformer
ECCV2022 | 基于对比学习和多信息表征的端到端视频OCR模型(有源码)
[ECCV 2022] 具有计数感知的手写数学公式识别算法(有源码)
[CVPR 2022]针对场景文本检测的视觉语言模型预训练
[CVPR 2022] 内容感知的文字标志图像生成方法
欢迎加入中国图象图形学学会!(附入会攻略)
扫码关注,获取最新OCR资讯